Clad还是Tobit, 归并最小绝对偏差, 做Tobit做不好的
可有偿投稿计量经济圈,计量相关则可
邮箱:econometrics666@sina.cn
所有计量经济圈方法论丛的do文件, 微观数据库和各种软件都放在社群里.欢迎到微观计量研究小组交流访问.感谢Zhao ri群友对计量经济圈的大力支持.
今天,我们“微观计量研究小组”,将为计量经济圈的圈友引荐一篇“Least absolute deviations estiamtion for the censored regression model”。这篇文章主要是致力于解决因变量的“归并问题”,尤其是当我们常用的Tobit模型的某个重要条件不再满足时——回归的残差项并不渐进服从正太分布,而且并不满足同方差性质。前面我们写了一篇文章"双栏模型Hurdle远超Tobit, 对于归并数据舍我其谁",里面有较为细致地讲解归并数据出现时"双栏模型"、“Tobit模型”和“两部分模型”的运用。
现在这篇文章主要适用于当咱们回归时的残差项不满足渐进正态分布或者有异方差性时的情形。我们使用的估计方法不是常用的“极大似然估计”(假设服从一个分布然后构造似然函数求maximization),而是之前用于分位数回归的“least absolute deviations”
前面所得到的这些β估计量可以为我们进行“假设检验”提供基础,比如我们经常使用的t检验、F检验就需要这些信息。Powell文章里还说,我们可以使用hausman检验去获得关于"是否咱们回归的残差是同方差还是异方差"的信息或“模型设定误差”的信息——一个用clad做回归,一个用tobit等极大似然估计做回归,用hausman检验去看看这两个回归得到的估计值是否是统计显著的。
现在,我们使用一个数据来看看clad具体是如何操作的,并且得到的结果与Tobit有什么不同呢?下面这个数据中的因变量y有明显的左端归并现象,右边也有归并现象。y的左端是在向2归并,我们打算使用Tobit模型先做一个左归并的回归。
这个左归并的Tobit回归得出了较为显著的系数,而且方程的整体显著性也挺不错的。
在回归之后,我们通过预测得到了Tobit回归的residual(注意:预测的时候option选项要谨慎选择)。通过画柱状图和正态分布的密度线,我们发现这个残差是稍微有点右偏,不过,我们不能仅仅通过图形来判断是否是正态分布。
下面这个是Tobit回归残差的QQ图,我们看见这个residual在45度线的周围,不过在左下方和右上方都有向两边偏离的趋势。实际上,当我们用sktest进行统计值检验时,发现回归的残差符合正态分布。
下面,我们就用clad方法进行左端归并回归,回归的结果与Tobit回归的结果相差不多。不过,我们需要注意的是这个结果出现了一列“bias”,所以我们需要多关注bias corrected的置信区间,因为我们还需要获得这些系数是否显著的信息。
通过clad回归之后,我们得到了回归残差,然后画出残差的柱状图和正太分布密度线。从下图,我们可以看到,现在的残差几乎完美地服从正太分布,因此,相对于tobit回归得到的估计值,clad得到的估计值明显要好一些。
我们使用hausman检验clad是否优越于tobit模型,如果hausman tobit clad的结果显示两个方程的估计系数存在明显差异,那么我们建议圈友们使用clad模型。遗憾地是,在这个我们较为随意选取的数据中,hausman检验失效了,因为chi square竟然为负数,因此,建议我们使用suest检验。在一般的情形中,我们可以同时给出ols, tobit, clad三者分别的估计结果,这样可以看出我们估计的结果有多稳健。
clad方法当前只能使用单边归并,而不能像tobit模型那样两边同时归并。这下面是我们对因变量y使用右端归并的估计结果。这里所得到的结果与前面的也很相近。
另外,clad方法是通过bootstrap方法得到的标准误差,他允许我们用一阶段自助法获得标准误,也允许我们用二阶段自助法获得标准误。比如,我们想通过抽样调查掌握某省(市)计量经济圈圈友的恋爱情况,采用多阶段抽样,那么某省(市)的30所大学可以看做是初级抽样单元,也就是一级抽样单元。那么这30所大学就是咱们的variables identifying resampling clusters。
下面这个是二阶段bootstrap得到的结果。
下面这个是一阶段bootstrap得到的结果。比较一下二者有什么不同呢?
好了,就讲到这里吧。有需要do file的请到计量经济圈社群获取。可以到计量经济圈微观计量研究小组进一步访问交流各种微观计量学术问题。
计量经济圈推荐
1.PSM-DID, DID, RDD, Stata程序百科全书式的宝典
2.RDD断点回归, Stata程序百科全书式的宝典
3.Generalized分位数回归, 新的前沿因果推断方法
4.Heckman模型out了,内生转换模型掌控大局
5.PSM倾向匹配Stata操作详细步骤和代码,干货
6.条件Logit绝对不输多项Logit,而混合模型最给力
7.广义PSM,连续政策变量因果识别的不二利器
8.自回归VAR模型操作指南针,为微观面板VAR铺基石
9.有限混合模型FMM,异质性分组分析的新筹码
10.政策评估中"中介效应"因果分析, 有趣的前沿方法
11.多期三重差分法和双重差分法的操作指南
12.多期双重差分法,政策实施时间不同的处理方法
13.随机前沿分析和包络数据分析 SFA,DEA 及操作
14.你的内生性解决方式out, ERM已一统天下而独领风骚
15.多期DID的经典文献big bad banks数据和do文件
16.面板数据里处理多重高维固定效应的神器
17.双栏模型Hurdle远超Tobit, 对于归并数据舍我其谁
18.面板数据计量方法全局脉络和程序使用指南篇
计量经济圈当前有几个阵地,他们分别是如下4个matrix:
①计量经济圈社群——计量经管数据软件等资料中心,
②计量经济圈微信群——服务于计量经济圈社群群友,
③计量经济圈研究小组系列——因果推断研究小组、空间计量研究小组、面板数据库研究小组、微观计量研究小组、计量软件研究小组,
④计量经济圈QQ群——2000人大群服务于计量经济圈社群群友。
计量经济圈是中国计量第一大社区,我们致力于推动中国计量理论和实证技能的提升,圈子以海内外高校研究生和教师为主。计量经济圈六多精神:计量资料多,社会科学数据多,科研牛人多,名校人物多,热情互助多,前沿趋势多。如果你热爱计量并希望长见识,那欢迎你加入到咱们这个大家庭(戳这里),要不然你只能去其他那些Open access圈子了。注意:进去之后一定要看小鹅社群“群公告”,不然接收不了群息,也不知道怎么进入咱们独一无二的微信群和QQ群。
进去之后就能够看见这个群公告了